بررسی روش های تطبیق پذیرسازی فاصله برای دسته بندی داده های نامتوازن
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و کامپیوتر
- نویسنده زهرا یگانه فرد
- استاد راهنما محمد هادی صدرالدینی اشکان سامی غلامحسین دستغیبی فرد
- سال انتشار 1391
چکیده
دسته بندی داده ها یکی از موضوعات اساسی در داده کاوی است که کاربردهای مهم و حیاتی در مسایل دنیای واقعی مانند تشخیص بیماری، مدیریت ریسک و پیش بینی رفتارهای آتی دارد. روشهای عملی برای کار با داده های دنیای واقعی، درگیر مسایلی چون حجم زیاد داده ها، اطلاعات غیر-مفید یا نامناسب، تاثیرات نویز و عدم توازن می باشند. داده های جمع آوری شده، معمولاً دارای یک سری نمونه با ویژگی های مختلف براساس زمینه کاربرد است. اهمیت این نمونه ها و ویژگی ها در تصمیم گیری و دسته بندی متفاوت بوده و بعلاوه، تعداد نمونه ها در هر دسته می تواند بسیار متفاوت باشد. از این روی لازم است در دسته بندی، معیارهایی به منظور کشف اهمیت اطلاعات موجود، به کار گرفته شوند. مهمتر آنکه این معیارها علاوه بر دانش افراد خبره، باید براساس داده ها، یعنی ویژگی ها و تعداد داده های هر دسته، تطبیق یابند. امروزه، مساله عدم توازن یکی از مسایل چالش برانگیز در داده کاوی و یادگیری ماشین است. در بسیاری از روش های دسته بندی، از جمله روشهای بر پایه نزدیک ترین همسایه، برچسب گذاری بر اساس یک معیار فاصله و یافتن شباهت و نزدیکی داده ها انجام می شود. روشهای بسیاری به منظور تطبیق پذیرسازی معیار فاصله در الگوریتم نزدیکترین همسایه ارائه شده است. این روشها با افزودن پارامتر وزن محلی یا سراسری به نمونه ها و ویژگی ها کار می کنند. روش ارائه شده در این پایان نامه با یادگیری وزن محلی ویژگی ها سعی در افزایش نرخ تشخیص همه دسته ها در مورد مسایل نامتوازن دارد. در این روش از مفهوم بی نظمی یا انتروپی برای تشخیص اهمیت ویژگیهای مختلف در اطراف هر یک از داده ها استفاده شده است. بدین منظور، یک تابع هدف مشتق پذیر بر اساس پارامترهای وزن تعریف شده که می تواند توسط روش های رایج، بهینه سازی شود. در این روش، برای تشخیص وزن هر ویژگی در اطراف هر یک از داده ها، در قالب تابع هدف، یک معیار جدید بر اساس مفهوم انتروپی و بی نظمی تعریف شده است. از مزیتهای این معیار کاهش پیچیدگی زمانی الگوریتم و مشتق پذیر بودن تابع هدف است. در این پایان نامه به منظور ارزیابی الگوریتم یادگیری، ازمایشات متعددی بر اساس مجموعه داده های محک انجام شده که نشان دهنده کارایی مناسب روش ارائه شده است.
منابع مشابه
ارائه یک الگوریتم خوشه بندی برای داده های دسته ای با ترکیب معیارها
Clustering is one of the main techniques in data mining. Clustering is a process that classifies data set into groups. In clustering, the data in a cluster are the closest to each other and the data in two different clusters have the most difference. Clustering algorithms are divided into two categories according to the type of data: Clustering algorithms for numerical data and clustering algor...
متن کاملدسته بندی مجموعه داده های نامتوازن با استفاده از روش های یادگیری ماشین
یکی از مسائل مهم در زمینه داده کاوی، مسأله دسته بندی مجموعه داده های نامتوازن است. اصطلاح «مجموعه داده نامتوازن»، عموما به مجموعه داده ای گفته می شود که تعداد نمونه ها در کلاس های گوناگون، اختلاف بسیاری داشته باشند. در این نوع داده ها، به کلاس هایی که کم ترین تعداد نمونه ها را دارند، کلاس اقلیت گفته می شود. به دلیل این که اکثر الگوریتم های یادگیری، یک دسته بند را با فرض برابر بودن تعداد نمونه ه...
بهبود طبقه بندی داده های نامتوازن
یکی از حوزه های مهم در داده کاوی طراحی الگوریتم های کلاس بندی با دقت بالا است. این امر به ویژه در شرایطی که داده ها دارای پراکندگی نامتوازن باشند، پیچیدگی بیشتری پیدا می کند. یادگیری کلاس نامتوازن به یادگیری از مجموعه داده های نامتوازن اشاره دارد که در آن تعداد نمونه های کلاس گروه اقلیت به طور قابل توجه ای کمتر از نمونه های کلاس گروه اکثریت است. به توجه به اینکه اکثر الگوریتم های یادگیری، طبقه ...
دو روش تبدیل ویژگی مبتنی بر الگوریتم های ژنتیک برای کاهش خطای دسته بندی ماشین بردار پشتیبان
Discriminative methods are used for increasing pattern recognition and classification accuracy. These methods can be used as discriminant transformations applied to features or they can be used as discriminative learning algorithms for the classifiers. Usually, discriminative transformations criteria are different from the criteria of discriminant classifiers training or their error. In this ...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و کامپیوتر
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023